本文提出了一个开放而全面的框架,以系统地评估对自我监督单眼估计的最新贡献。这包括训练,骨干,建筑设计选择和损失功能。该领域的许多论文在建筑设计或损失配方中宣称新颖性。但是,简单地更新历史系统的骨干会导致25%的相对改善,从而使其胜过大多数现有系统。对该领域论文的系统评估并不直接。在以前的论文中比较类似于类似的需要,这意味着评估协议中的长期错误在现场无处不在。许多论文可能不仅针对特定数据集进行了优化,而且还针对数据和评估标准的错误。为了帮助该领域的未来研究,我们发布了模块化代码库,可以轻松评估针对校正的数据和评估标准的替代设计决策。我们重新实施,验证和重新评估16个最先进的贡献,并引入一个新的数据集(SYNS-Patches),其中包含各种自然和城市场景中的密集室外深度地图。这允许计算复杂区域(例如深度边界)的信息指标。
translated by 谷歌翻译
为了计划安全的演习并采取远见卓识,自动驾驶汽车必须能够准确预测不确定的未来。在自主驾驶的背景下,深层神经网络已成功地应用于从数据中学习人类驾驶行为的预测模型。但是,这些预测遭受了级联错误的影响,导致长时间的不准确性。此外,学识渊博的模型是黑匣子,因此通常不清楚它们如何得出预测。相比之下,由人类专家告知的基于规则的模型在其预测中保持长期连贯性,并且是可解释的。但是,这样的模型通常缺乏捕获复杂的现实世界动态所需的足够表现力。在这项工作中,我们开始通过将智能驱动程序模型(一种流行的手工制作的驱动程序模型)嵌入深度神经网络来缩小这一差距。我们的模型的透明度可以提供可观的优势,例如在调试模型并更容易解释其预测时。我们在模拟合并方案中评估我们的方法,表明它产生了可端到端训练的强大模型,并无需为模型的预测准确性提供更大的透明度。
translated by 谷歌翻译
运动估计方法通常采用传感器融合技术(例如Kalman滤波器)来处理单个传感器故障。最近,已经提出了基于深度学习的融合方法,提高了性能并需要更少的模型特定实现。但是,当前的深融合方法通常认为传感器是同步的,这并不总是实用的,尤其是对于低成本硬件。为了解决这一局限性,在这项工作中,我们提出了AFT-VO,这是一种新型的基于变压器的传感器融合体系结构,以估算来自多个传感器的VO。我们的框架结合了异步多视觉摄像机的预测,并说明了来自不同来源的测量值的时间差异。我们的方法首先采用混合密度网络(MDN)来估计系统中每个相机的6-DOF姿势的概率分布。然后引入了一个新型的基于变压器的融合模块AFT-VO,该模块结合了这些异步姿势估计以及它们的信心。更具体地说,我们引入了离散器和源编码技术,该技术使多源异步信号的融合。我们在流行的Nuscenes和Kitti数据集上评估了我们的方法。我们的实验表明,用于VO估计的多视图融合提供了强大而准确的轨迹,在挑战性的天气和照明条件下都超过了艺术的表现。
translated by 谷歌翻译
通常使用参数模型进行经验领域的参数估计,并且此类模型很容易促进统计推断。不幸的是,它们不太可能足够灵活,无法充分建模现实现象,并可能产生偏见的估计。相反,非参数方法是灵活的,但不容易促进统计推断,并且仍然可能表现出残留的偏见。我们探索了影响功能(IFS)的潜力(a)改善初始估计器而无需更多数据(b)增加模型的鲁棒性和(c)促进统计推断。我们首先对IFS进行广泛的介绍,并提出了一种神经网络方法“ Multinet”,该方法使用单个体系结构寻求合奏的多样性。我们还介绍了我们称为“ Multistep”的IF更新步骤的变体,并对不同方法提供了全面的评估。发现这些改进是依赖数据集的,这表明所使用的方法与数据生成过程的性质之间存在相互作用。我们的实验强调了从业人员需要通过不同的估计器组合进行多次分析来检查其发现的一致性。我们还表明,可以改善“自由”的现有神经网络,而无需更多数据,而无需重新训练。
translated by 谷歌翻译
视觉内径(VO)估计是车辆状态估计和自主驾驶的重要信息来源。最近,基于深度学习的方法已经开始出现在文献中。但是,在驾驶的背景下,由于环境因素,摄像机放置等因素而导致的图像质量降低,单个传感器的方法通常容易出现故障。要解决这个问题,我们提出了一个深度传感器融合框架,其使用两者估计车辆运动来自多个板上摄像头的姿势和不确定性估计。我们使用混合CNN - RNN模型从一组连续图像中提取短时间形特征表示。然后,我们利用混合密度网络(MDN)来估计作为分布的混合和融合模块的6-DOF姿势,以使用来自多摄像机的MDN输出来估计最终姿势。我们在公开的大规模自动车辆数据集,Nuscenes上评估我们的方法。结果表明,与基于相机的估计相比,所提出的融合方法超越了最先进的,并提供了坚固的估计和准确的轨迹。
translated by 谷歌翻译
可视化内径(VO)用于许多应用,包括机器人和自主系统。但是,基于特征匹配的传统方法是计算昂贵的,而不是直接解决故障情况,而是依赖于启发式方法来检测失败。在这项工作中,我们提出了一种基于深度学习的VO模型,以有效地估计6 DOF姿势,以及这些估计的置信模型。我们利用CNN - RNN混合模型从图像序列学习特征表示。然后,我们采用混合密度网络(MDN),其估计相机运动作为高斯的混合,基于提取的时空表示。我们的模型使用姿势标签作为监督源,但以无人监督的方式源性不确定性。我们评估基提和NUSCENES数据集的提出模型,并报告广泛的定量和定性结果,以分析姿势和不确定性估计的性能。我们的实验表明,除了使用预测的姿态不确定性检测故障情况之外,该建议的模型还超过了最先进的性能。
translated by 谷歌翻译
我们提出了一种新的方法,以综合新姿势的人民观点。我们的新颖可分解渲染器能够从任何观点来合成高度现实的图像。我们的渲染器而不是经过基于网格的结构,而不是经过网格的结构,而是利用直接代表人类的底层骨骼结构的弥漫性高斯基元。渲染这些原语可以通过解码器网络转换成RGB图像的高维潜像。制剂产生了可以训练端到端的完全可分辨率的框架。我们展示了我们对人类3.6M和Panoptic Studio数据集的图像重建方法的有效性。我们展示了我们的方法如何用于个人之间的运动转移;新颖的观看综合从单个相机捕​​获的个体;从任何虚拟角度扫描个体;并重新渲染新颖的姿势。代码和视频结果在https://github.com/guillaumerochette/humanviewsynthesis中获得。
translated by 谷歌翻译
在本文中,我们专注于单次符号发现的任务,即给定孤立的符号(查询)的示例,我们希望识别是否在连续,共同铰接的手语视频中出现此标志(目标)。为了实现这一目标,我们提出了一个转换器的网络,称为SignLookup。我们使用3D卷积神经网络(CNNS)来提取视频剪辑的时空表示。为了解决查询和目标视频之间的时间尺度差异,我们使用不同的帧级级别构造来自单个视频剪辑的多个查询。在这些查询剪辑中应用自我关注以模拟连续刻度空间。我们还在目标视频上使用另一个自我关注模块来学习序列内的上下文。最后,使用相互关注来匹配时间尺度来定位目标序列内的查询。广泛的实验表明,无论签名者的外观如何,所提出的方法不仅可以可靠地识别连续视频中的孤立的标志,但也可以概括不同的标志语言。通过利用注意机制和自适应功能,我们的模型在符号发现任务上实现了最先进的性能,精度高达96%,在具有挑战性的基准数据集,并显着优于其他方法。
translated by 谷歌翻译
Disentangled表示支持一系列下游任务,包括因果推理,生成建模和公平机器学习。不幸的是,在不纳入监督或归纳偏见的情况下,脱吊度被证明是不可能的。鉴于监督往往是昂贵或不可行的收购,我们选择合并结构感应偏压,并为视频解剖(VDSM)提供无监督的深度状态模型。该模型通过在具有动态现有的和专家解码器的混合物中掺入分层结构而脱离潜在的时变和动态因素。 VDSM了解对象或视频中对象或人的身份的单独解密表示,以及正在执行的操作。我们在一系列定性和定量任务中评估VDSM,包括身份和动态传输,序列生成,FR \'ECET距离和因子分类。 VDSM提供最先进的性能并超出对抗方法,即使方法使用额外的监督。
translated by 谷歌翻译
在广泛的任务中,在包括医疗处理,广告和营销和政策制定的发​​展中,对观测数据进行因果推断非常有用。使用观察数据进行因果推断有两种重大挑战:治疗分配异质性(\ Texit {IE},治疗和未经处理的群体之间的差异),并且没有反事实数据(\ TEXTIT {IE},不知道是什么已经发生了,如果确实得到治疗的人,反而尚未得到治疗)。通过组合结构化推论和有针对性的学习来解决这两个挑战。在结构方面,我们将联合分布分解为风险,混淆,仪器和杂项因素,以及在目标学习方面,我们应用来自影响曲线的规则器,以减少残余偏差。进行了一项消融研究,对基准数据集进行评估表明,TVAE具有竞争力和最先进的艺术表现。
translated by 谷歌翻译